查看原文
其他

七周:第六周统计学(基础)笔记

2017-11-29 订车宝 Python爱好者社区

作者:订车宝

Python爱好者社区专栏作者   汽车数据分析    一站式汽车经销智能运营管理平台

博客地址:https://ask.hellobi.com/blog/cbdingchebao



以下是七周成为数据分析师课程部分学习笔记

(点击阅读全文可学此课程哦)


前文链接:


七周:第一周数据分析师思维学习笔记

七周:第二周业务学习笔记(内附练习汽车经销店整车销售分析模型)

七周:第三周Excel学习

七周:第四周数据可视化学习笔记

七周:第五周MySQL学习笔记


当拿到一份数据的时候,首先会怎么做?----描述性统计学,概率推断统计。


【描述性统计学】


数值数据:计算

分类数据:不能进行计算,例如,男1 女0 代表一个类别

数值数据和分类数据可以进行互相转换


一般描述统计的方式方法:


1.分类数据的描述性统计:单纯计数就可以

2.数据描述统计:

3.统计度量:平均数--数据分布比较均匀的情况下进行,中位数,众数,分位数(4分位、10分位、百分位)

4.图形:

5.权重预估(分位数)

6.数据分布(波动情况,标准差,方差)

7.数据标准化:

在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较

用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。

xi:数据的具体值

u:平均值

σ:标准差

标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。


实例演示:时间趋势下订单的变化


单纯的时间只是一种属性,隐含的一种关系。很多销量是跟时间有关系,但是时间的背后是根据用户行为或者一系列因素相关。而不是单纯连续日期几号的简单关系。所以将案例数据需要进行初步整理(坦诚讲~这个细节是比较吸引我的,因为在此之前一直是像上面所说,对日期进行简单连续日期进行趋势分析,得到的结果的确不尽人意)添加周数和星期,将其转化成日历形式进行观察。



显然,标准化之后的趋势显得更加明显清晰了,将趋势扩张到肉眼辨识度提高的形态。


在后期处理的时候,建议用标准化的数据进行预估,因为标准化后已经将正负收敛到0的附近,并且可以方便增加其他关系参加预估。



切比雪夫定理,可以帮助在知道标准差和平均数的情况下,基本就知道数据的分布情况。

另一种作用则通常用于异常值的检测。

在数据越多的情况下,数据越收敛,推算的能力就会越精准。


描述统计的可视化:


1.箱线图:描述一组数据的分布,同时反应分位数


用2016版本以上的Excel可以直接利用数据作图,如低版本的则需要利用辅助线来进行(之前可视化内容的标靶图方法)绘制。


箱线图相对比其他柱形图更有对数据的分析解读性。


操作举例:



上下边缘线外部分散的点,可视分析情况视为异常值处理,如果想要分析的结果更精准,可视情况将这部分异常值数据剔除。



可添加类别进行细致分析。


2.直方图:特殊的柱形图,把条形图下面的类别换成数据的柱形图。

直方图一般的是等距划分,每一个等距的距离不能重复。

直方图的形状有以下几种:



标准型:分布均匀较理想

陡壁型:比较容易出现在收费领域

锯齿型:说明数据不够稳定

孤岛型:要研究分析孤岛产生的原因

偏峰型:销售数据一般会产生偏锋,一般会出现长尾(或左或右)

双峰型:两者数据混合一般会形成双峰


由直方图引出一个统计学指标--偏度


---正态分布



正态分布的特殊应用:



描述性统计的计算值,可通过Excel里面的数据--数据分析---描述性统计直接通过界面勾选需要内容进行计算。


【概率推断统计】


推断统计,描述一件事情发生的可能性

例如:抛硬币的游戏

事件:正面、反面

概率:50%



在B发生的概率下,A发生的概率是多少

当A与B之间无关联的时候,则P(A|B)=P(A)

条件概率的关键点


【贝叶斯定理】



看到题目的时候与最后分析的结果相差巨大的原因是因为上题目中,有多重诱因所导致。


事件发生会有很多原因,我们单纯只知道结果的情况下去反推原因是不太好的。


贝叶斯公式:


P(A1):真实患者的概率

P(A2):实际为健康人群的概率

P(B):代表试纸查出患者的概率

P(B|A1):为真实患者条件下试纸查出患者的概率,即99%

P(B|A2):为健康人群的条件下试纸查出患者的概率,即5%


P(A1)为真实患者的概率0.1%,P(A2)为健康率99.9%


i:为特定场景下

贝叶斯特点:知道结果A已经发生了,想要推导出各种原因发生的可能性有多大。(结果----->发生因素的概率)


对于贝叶斯多倾向用于机器算法。网络上也有很多关于贝叶斯的解释可供参考学习。


天善智能数据分析主打课程,秦路主讲,七周成为数据分析师课程。

思维方法+业务知识+技术手段,全方位打造出高含金量的数据分析师课程

想成为数据分析师么?快来报名学习吧!已经有1600+学员加入学习啦~


点击阅读原文立即学习

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

0.小编的Python入门视频课程!!!

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存